﻿ Cursul 13 Noțiuni de prelucrare a limbajului natural Domeniul • Lingvisca computaţională (LC) – osatura teorecă – computaonal linguiscs • Prelucrarea limbajului natural – zona aplicavă – natural language processing – tehnologia limbajului natural, natural language technology – tehnologia limbajului uman, human language technology 2 Tehnologia limbajului natural • Limbajul vorbit • Limbajul scris • Limbajul în corelaţie cu alte modalităţi de expresie (mulmodalitate) 3 Tehnologiile limbajului vorbit • Interpretarea vocii – reprezentarea semnalelor vocale – recunoaşterea vorbirii – analiza prozodiei – recunoaşterea vorbitorului • Sinteza vocală 4 Prelucrarea semnalului sonor Prin bunăvoinţa Acad H N Teodorescu 5 Tehnologiile limbajului scris • Tehnologii primare – Analiza imaginii documentelor – Recunoaşterea caracterelor de par – Recunoaşterea caracterelor de mână • Opcal Character Recognion (OCR) 6 Ms 45 BAR Cluj-Napoca, second half of 17th century Diﬀerent types of wring in the revised copy of Nicolae Milescu’s translaon of Septuaginta, p 412-413 7 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sub-sintacce • unităţile lexicale • graniţele de frază • granițele de propoziții • partea de vorbire şi marca morfologică • lema • numele de entăţi • grupurile (nominale, verbale, prepoziţionale etc ) şi atracţiile lexicale (colocaţii) 8 Fraze Comisia juridică a Camerei Deputaţilor a votat luni împotriva începerii urmăririi penale a ministrului demisionar al Fondurilor Europene, Rovana Plumb, după ce aceasta a fost audiată, alături de avocat, aproximav o oră de către deputaţii juriş | Rovana Plumb s-a declarat, din nou, la ieşirea de la audierile din comisia juridică, nevinovată de acuzaţiile aduse de procurorii ancorupţie | 9 Propoziții Pe 22 septembrie, DNA a anunţat că | vicepremierul Sevil Shhaideh este suspectă de | săvârşirea infracţiunii de abuz în serviciu | când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, | prin acţiunea concertată a unor persoane cu funcţii publice, | părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, | pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private | 10 Unități lexicale Pe 22 septembrie , DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP , într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 11 Entăți cu nume persoană Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 12 Entăți cu nume dată Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private reper temporal Entăți cu nume instuție Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 14 ocații Entăți cu nume lgeograﬁce Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 15 Lema și partea de vorbire Solicitat – solicita – vb să – să – conj comenteze – comenta – vb un – un – art nehot editorial – editorial – sb recent – recent – adj 16 Adnotarea morfologică • English 0 1 He he subj:>2 @SUBJ PRON 2 did do v-ch:>4 @+FAUXV V 3 not not neg:>2 @ADVL NEG-PART 4 know know main:>0 @-FMAINV V 5 her she subj:>6 @OBJ PRON 6 name name obj:>4 @-FMAINV V • Romanian Nu şa cum o cheamă 17 Grupuri nominale Solicitat să comenteze [un editorial recent al lui [Dinu Patriciu]], în [care] [acesta] preciza că nu crede în [social-liberalism] şi să aprecieze dacă, asel, a dat [o lovitură de [imagine]] [USL], [Antonescu] a spus că nu şe dacă [Patriciu] s-a referit la [USL] 18 Adnotare la grupuri nominale He did not know her name 19 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sintacce • formalisme gramacale • parsarea è structura sintaccă a frazei 20 Ambiguităţi sintacce Maria priveşte calul cu ochelari S S VP NP VP NP NP NP PP PP NP NP priveşte Maria calul cu ochelari priveşte Maria calul cu ochelari 21 Instrumente de bază în PLN • Tokenizer: determină granițele unităților lexicale – intrare: text (șir de caractere) – ieșire: cuvânt – cum: prin expresii regulate 22 22 Instrumente de bază în PLN • POS-Tagger: echetare la parte de vorbire (dezambiguizare morfosintaccă) – intrare: cuvânt – ieșire: cuvânt – cum: exploatând frecvențele de apariție a anumitor secvențe de părți de vorbire => opmizare globală a secvențelor de echete The saw made noise DET V N N N V 23 Instrumente de bază în PLN • Lemazator: determină forma de bază a cuvintelor – intrare: word – ieșire: word – cum: pe baza unui dicționar de leme și exploatând frecvențe de apariție a secvențelor de leme => opmizare globală The saw made noise the saw made noise see make 24 Instrumente de bază în PLN • NP-Chunker: detectează grupuri nominale – intrare: secvențe de elemente – ieșire: – cum: aplicând expresii regulate 25 Instrumente de bază în PLN • NER (name enty recogniser): recunoaște și clasiﬁcă nume de entăți – intrare: text – ieșire: – cum: pe bază de expresii regulate și liste foarte mari de nume de entăți specializate pe limbi (gazeteers) 26 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – Prelucrări semance şi de discurs • dezambiguizare semancă è sensurile cuvintelor • determinarea rolurilor semance ale verbelor • structura retorică a discursului şi dialogului • rezoluţia anaforelor • rezumarea textelor 27 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 28 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 29 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 30 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 31 Cuvintele îşi precizează sensul în context • Ion se prinse în horă cu o fată cu cosiţe lungi • Când fată iapa ta? • Mă mai dau o dată pe pâra roşie • I-am dat una peste mână • Maria a dat cartea înapoi • M-am scos… • Mi-am scos măseaua de minte 32 Pre-processing TEXT Tokeniser SENT-SPLITTER TOK SENT POS-tagger + Lemmaser TOK(POS,LEM) 33 NP-chunking, NER TOK(POS,LEM) NP-chunker TOK + NP NER me NER org NER person TOK+NPTOK+NP +NE(PER) TOK+NP+TIME +NE(ORG) merge TOK+NP+NE 34 Coreference, syntacc parsing SENT TOK+NP+NE TOK(POS,LEM) RARE merge TOK + NP+NE +COREF TOK+SENT FDG-parser TOK+SENT +SYNT merge TOK+NP+NE+COREF +SENT+SYNT 35 Events TEXT manual annotaon EVENT simpliﬁcaon TOK+NP+NE+COREF +SENT+SYNT EVENT-ﬁnder TOK+NP+NE+COREF +SENT+SYNT+EVENT 36 Kinship and Space TEXT manual annotaon manual annotaon KINSHIP SPACE TOK+NP+NE+COREFsimpliﬁcaon +SENT+SYNT simpliﬁcaon KINSHIP-ﬁnder SPACE-ﬁnder TOK+NP+NE+COREFTOK+NP+NE+COREF +SENT+SYNT+KINSHIP +SENT+SYNT+SPACE 37 Relații de rudenie: exemplu - Las că cu ne mă răfuiesc după, îi scăpă printre dinți omului ei Donca, nevasta călugărului zbanghiu Zuicu, care-I adusese la el acasă pe Ion și pe președinte Apoziție: Per-X, Rel (atrib) Per-Ygen, => marriage(X:person[sex:?], Y:person[sex:?]) marriage(Donca:person[sex:f], Zuicu:person[sex:m]) 38 Relații de rudenie: exemplu - Vreme de patruzeci de ani viața Ellei Rubinstein1 fusese ca o apă stătătoare… Soțul ei1, David, era un denst de succes… Apoziție: Rel Per-Xpr, Per-Y, => on,gen marriage(antecedent(X):person[sex:?], Y:person[sex:?]) marriage(Ella Rubistein:person[sex:f], David:person[sex:m]) 39 Relații spațiale: exemplu La cinci verste de iurtele Aremziansk, în mijlocul râului Irtâş, se aﬂă ostrovul Kuntai Satul lui Filatov se aﬂă pe malul stâng la două verste de ostrov 40 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 41 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • instants e1:t1 / e2:t1 / e3:t2=t1+5min / e4:t2 t1 t2 time e1 e2 e3 e4 42 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • and intervals: 5 minutes t1 t2 time e1 e2 e3 e4 43 Events can be • Instantaneous: Ion a ieşit din cameră t time Maria s-a întâlnit cu proful de mate e • Take me: Ion a cit toată seara Afară plouă t1 t2 time e 44 Signals for temporal relaons Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 când ei, ej è t(ei) = t(ej) ei După ej è t(ej) = t(ei)+ La ej è t(ei) = t(ej) 5 minute t1 t2 timp e1 e2 e3 e4 45 Type of reasoning where me maers 1 Samurai S R L a luat fiinţă la 23 ianuarie 1984 2 [Falimentul firmei] a avut loc la un an după [înfiinţarea ei] un an Când a falimentat Samurai S R L ? 46 Processing statements inţă a luat fiinţă a lua ﬁ subj compl evenimential ISA representation Samurai S R L REC Samurai S R L (id=obj1) la ev1 PP TIME 23 ianuarie 1984 23 ianuarie 1984 47 a avut loc a avut loc subj compl subj compl falimentarea la rezoluţia falimentarea la atrib genit? PP anaforelor atrib genit? PP fianan obj1 rmei de det t un după un după înfiinţarea înfiinţarea atrib genit? atrib genit? ei obj1 simplificări dacă are loc falimentarea lui a falimenta X atunci X falimentează subj compl la obj1 PP an referinţă det aforică la un un după an eveniment deja menţionat ev1 48 Processing statements a falimenta subj compl la obj1 PP an temporal det xpression un după e anchored in another event ev1 evenimential representations 49 Compung me 50 Corpusul ‘QuoVadis’ 51 Un corpus de entăți și relații semance • Tipuri de entăți: – persoane – zei – grupuri de persoane și zei – părți ﬁzice • Relații semance exprimate între aceste puri de entăți 52 Entăți • Personaje (Marcus Vinicius, Ligia), grupuri (creșnii, soldații); • La nivelul textului: grupuri nominale (tânărul patrician, ﬁul consulului); • Entăți incluse: [Te]1 [iubesc; REALISATION=INCLUDED]2, Marcus! • Expresii referențiale imbricate: [ﬁica [lui Aulus]2]1 53 Tipuri de relații • Anaforice • Semance – rudenie – afecve – sociale 54 Relații anaforice • coref • coref-interpret • member-of, has-as-member (inverse) • isa, class-of (inverse) • part-of, has-as-part (inverse) • subgroup-of, has-as-subgroup (inverse) • has-name, name-of (inverse) 1:[Acteea] 2:[tânăra libertă] => coref 1:[mâna 2:[lui] dreaptă] => part-of 55 Relații de rudenie • parent-of • child-of (inverse of parent-of) • grandparent-of and grandchild-of (inverse) • sibling (symmetrical) • ant-uncle-of, nephew-of (inverse relaon) • cousin-of (symmetrical) • spouse-of (symmetrical) • unknown 1:[celui de-al doilea soț 2:[al Popeii]] => spouse-of 1:[sora lui 2:[Petronius]] => sibling-of 56 Relații sociale • superior-of • inferior-of • in cooperaon-with • colleague-of • in compeon-with • opposite-to Eliberând- 1:[o], 2:[Nero]… => superior-of 1:[Tânărul] luptase sub comanda 2:[lui Corbulon] => inferior-of 57 Relații afecve • love • loved-by • hate • hated by • upset • friendship • worship • anger Pe 1:[Vinicus] îl cuprinse o mânie năprasnică împotriva 2:[împăratului] și împotriva 3:[Acteii] => anger , anger 58 căsătorise Marcus cu Vinicius TYPE="parent-of"> era tatăl TYPE="child-of"> acestuia ﬁul TYPE="sibling-of"> surorii TYPE="inferior-of"> a sale e consul mai pe mari vremea tar lui o Tiberiu n , d A TYPE="spouse-of"> care REFERENTIAL> , cu REFERENTIAL> ani în urmă , of" /REFERENTIAL> se Stasci asupra corpusului • 7 281 fraze • 146 822 cuvinte și semne de punctuație • 24 636 mențiuni de entăți • 22 301 relații referențiale • 755 relații AKS (Aﬀecve + Kinship + Social) • 752 triggere 60 Example: relațiile love și worship 61 Relațiile afecve fear-of și hate 62 Relațiile lui Vinicius cu alte personaje 63 Distribuția relațiilor semance în care este implicat personajul Vinicius 64 Linguiscs Linked Open Data (LLOD) - Dezvoltarea de tehnici care vor permite descifrarea conținutului semanc al textelor - rezumate (generale, parțiale, focalizate pe personaje), - linii narave (e g evoluția senmentelor dintre Vinicius și Ligia) - conexiuni stace între entăți (e g arbori genealogici), - stasci asupra entăților (e g senmentele majoritare ale creșnilor comparate cu cele ale romanilor) 65 Linguiscs Linked Open Data (LLOD) - Generarea de ontologii din colecții de tratate - aplicații care “citesc” tratatele unui domeniu și formalizează conceptele și instanțele acestora - Căutare documentară inteligentă - asistenți personalizați ai acvității de cercetare 66 